[2024年9月18日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Data Extract/Load
Airbyte
Airbyte 1.0のローンチイベントが開催予定
現地時間2024年9月24日に、Airbyte 1.0のローンチイベントが開催予定です。
このイベントに先駆けて、Airbyte公式よりこれまでのAirbyteの歩みをまとめたブログも出ていました。
dlt
バージョン1.0をリリース
dltが最新バージョンとして、1.0をリリースしました。
実際にdltを導入している顧客が1000社を越えているようで、関連するブログも出していました。この記事を見ると、「dlt+」というおそらくSaaS版となるプロダクトも提供予定のようですね。
Data Warehouse/Data Lakehouse
Snowflake
SNOWFLAKE WORLD TOUR TOKYOが開催
日本時間2024年9月11日~9月12日に、SNOWFLAKE WORLD TOUR TOKYOが開催されました。
私も現地参戦したのですが、事前登録者数は5000人超えとのことで、会場も大盛況でしたね!!
弊社でも各セッションのレポートブログを執筆していますので、ぜひご覧ください。
CCCMKホールディングス社でのTポイント分析基盤の歴史とSnowflakeへ移行した話
@TARO9652512797さんにより、「Tポイント分析基盤の歴史とSnowflakeへ移行した話」というタイトルでCCCMKホールディングス社でのデータ分析基盤の変遷をまとめた記事が出ていました。
オンプレミスのOracleのExadataからSnowflakeに移行するまでの道のりがとても詳細に記述されており、参考になる方も多いと想いますぜひご覧ください。
OracleからSnowflake移行のSQL非互換対応まとめ
@TARO9652512797さんにより、OracleからSnowflakeに移行する際の非互換である仕様をまとめた記事が出ていました。
OracleからSnowflakeに移行を検討する際に非常に参考になる記事で、大変ありがたいです…
dbt Semantic LayerのコードをCortex Analyst用のsemantic modelに変換する例
dbt Semantic LayerのコードをCortex Analyst用のsemantic modelに変換するツールの使用例がまとめられた記事が出ていました。
Semantic Model GeneratorのStreamlitアプリの中に、内包されているようですね。
サーバーレスタスクでPythonとJVMの処理がサポートされるように
8.34のリリースで、SnowflakeのサーバーレスタスクでもPythonやJVMを用いた処理が実行できるようになりました。具体的には、UDFやストアドプロシージャが対象となっています。数秒で終わる処理はサーバーレスタスクを用いた方がコストパフォーマンスが基本的に高いので、これは嬉しいですね!!
MotherDuck/DuckDB
DuckDB雑紹介(1.1対応版)@DuckDB座談会
「DuckDB雑紹介」というタイトルで、DuckDBの特徴やSQLの独自機能をまとめた資料が出ていました。
とてもわかりやすくまとまっており、DuckDBのことを知りたい方にはぴったりの記事だと思います。
Data Transform
dbt
The Analytics Development Lifecycle(ADLC)をホワイトペーパーとして公開
dbt Labs社が、「The Analytics Development Lifecycle(ADLC)」という名称でデータ分析基盤の開発ライフサイクルをまとめたホワイトペーパーを公開しました。
下図はホワイトペーパーからの引用ですが、Software Development Lifecycle(SDLC)のDevOps図に沿って、DataOpsを表現した図となっています。
Semantic Layer
AtScale
Semantic Layer用のモデリング言語を「SML」としてOSSでリリース
AtScale社が、Semantic Layer用のモデリング言語を「SML(Semantic Modeling Language)」としてOSSでリリースしました。
AtScale社からもブログが出ていました、こちらも併せてご覧ください。
Business Intelligence
Looker
24.16のリリースノートが公開
Lookerの24.16のリリースノートが公開されました。
以下の点が気になりました。
- マップビジュアライゼーションでGoogleマップのみが使えるようになり、従来のレガシーマップが廃止になること
- IDEの細かなアップデートが多くある(VimやEmacsエディタが使えるようになるらしいです)
Tableau
Tableau 2024.3がまもなくリリース予定
TableauのComing Soonのページが更新され、2024.3でリリース予定の新機能の情報が公開されました。
ざっと見た感じは、Tableau Pulseの機能拡充を中心に、Tableau Desktop関係はより利便性を高めるための細かな機能追加多いという印象を受けました。
Tableau PrepからAmazon S3に対してデータをParquet形式で出力する方法
rtamaさんにより、Tableau 2024.2の新機能である「Tableau PrepからAmazon S3に対してデータをParquet形式で出力」の機能を試された記事が出ていました。
Parquetはこれまでもデータレイク上の保存形式としてよく使われていますが、昨今はデータレイクハウスで使用する保存形式としても注目を浴びています。使い所は多いと想いますので、ぜひご覧ください。
Sigma
Sigmaの新機能紹介ブログ
Sigmaが新機能をまとめて紹介するブログを公開していました。
個人的には以下の機能が気になりました。
- 「Data Models」というSigma上でリレーションシップやメトリクスの定義を行える機能
- dbt Semantic Layerで定義したメトリクスをSigmaで利用する機能
Omni
ブランチを切った際に参照先のデータベース・スキーマを動的に切り替える機能をリリース
dbtの使用有無を問わず、ブランチを切ったときに動的に参照するデータベース・スキーマを切り替える機能をリリースしました。
Data Orchestration
Astronomer
Astro Observeをプライベートプレビューでリリース
Airflowのマネージドサービスを提供するAstronomerが、Astro Observeという新機能をプライベートプレビューでリリースしました。
機能としては、SLAが守られているかを確認すビューや、依存関係を可視化するダッシュボードなどを提供しているようです。
OSSのAirflowやCloud Composerなどでも利用できる機能とのことです。